LLaVA（Large Language and Vision Assistant）

本記事では、LLaVA（Large Language and Vision Assistant）に関して、論文内容の紹介や使用方法などをまとめる

書誌情報

タイトル：Visual Instruction Tuning

掲載元　：NeurIPS

掲載年　：2023

著者　　：Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee

リンク　：https://openreview.net/pdf?id=w0H2xGHlkw

何をしている論文？

マルチモーダルモデル「LLaVA（Large Language and Vision Assistant）」の提案

画像とテキストを用いた対話が可能なモデル

画像エンコーダにはViTを、LLMにはVicunaを採用

画像とテキストを組み合わせた学習用データをChatGPTで作成

データセット作成用のパイプラインを提案

評価用のベンチマークを新たに2つ提案

手法の概要

GPTを用いた学習データ作成

画像とテキストを用いた対話データを作成

LLMには画像が入力不可→画像の代わりに、「画像のキャプション」と「バウンディングボックスの座標」を入力

データ生成時はプロンプト内にいくつか例を与える

3つの形態の質問-回答データを作成

会話（Conversation）：画像内の物体の個数や場所など、明確な答えを持つ質問

詳細な説明（Detailed Description）　：どのような画像か詳細に説明させる質問

複雑な推論（Complex Reasoning）　：画像に関する複雑な推論を必要とする質問

LLaVAのアーキテクチャ

LLMにはVicunaを、画像エンコーダにはCLIPを採用

VicunaはLLaMAをChatGPTのデータでFine-Tuningしたもの

CLIPの画像エンコーダはVision Transformer（ViT-L/14）のもの

画像を、LLMの言語埋め込み空間に射影

画像エンコーダで、画像の特徴量Zvを抽出

線形層で、Zvに射影行列Wを掛け合わせる

画像トークンHvが獲得できる

学習可能なパラメータは、LLM本体と射影用線形層のみにある

LLaVAの訓練

①射影用線形層を訓練

まず、画像をLLMが理解可能な空間へ射影するProjection層を訓練する

画像とキャプションのペアデータを作成し、1ターンの会話データを作成

画像と質問文を入力し、質問文への回答を自然言語で出力

CLIPとLLMの重みは固定

②End-to-Endの訓練

Projection層とLLMを訓練

チャット形式の応答や複雑な推論が可能になるように訓練する

CLIPの重みは固定

論文内では、ChatbotとしてのLLaVAの評価と、ScienceQAベンチマークを用いたLLaVAの評価を実施

工夫している点

画像と対話型自然言語データセットをChatGPTから作成

画像特徴量をLLMの言語空間に埋め込むために、シンプルな線形層（Projection層）を作成

評価実験の方法と結果

ChatbotとしてのLLaVAの評価

テキストのみのGPT-4を評価器として利用

画像、質問、回答の三つ組みを作成

評価対象のモデル（例えばLLaVA）には画像と質問を入力し、質問への回答を出力（1）

テキストのみのGPT-4には画像のキャプションと質問を入力し、質問への回答を出力（2）

（1）（2）で得られた出力と、質問、画像のキャプションをテキストのみのGPT-4に入力し、評価対象のモデルによる出力を「有用性」「関連性」「正確性」「詳細度」の観点から評価

評価用に二つのベンチマークを設計

LLaVA-Bench（COCO）

COCO-Val-2014データセットから画像を30枚収集

30枚の画像それぞれを用い、3種類の質問データを作成

LLaVA-Bench（In-the-Wild）

より困難なタスクにおけるモデルの汎化性能を評価

24枚の画像と60個の質問で構成

評価結果

学習データのアブレーションスタディ

LLaVA-Bench（COCO）で評価

②End-to-Endの訓練により推論性能が大幅に向上

詳細な説明と複雑な推論の学習を通して、会話能力が向上

既存のVLMとの比較

LLaVA-Bench（In-the-Wild）で評価

比較手法は「OpenFlamingo」「BLIP-2」

比較手法に対してLLaVAは高い性能を発揮

ScienceQAベンチマークでの評価

ScienceQAデータセット

3つのテーマ、26のトピック、127のカテゴリ、379のスキルにまたがる領域の多様性を持つ21kのマルチモーダル多肢選択問題

新たなSoTA性能を発揮

面白いと感じた点

画像を扱う箇所に既存のエンコーダとシンプルな線形層のみを用いたところ

多様なベンチマークを通してモデルの性質を詳細に分析したところ

そのほかの感想

ややChatGPT及びGPT-4頼みなモデルであると感じた

（2025/04/24追記）

Ollamaを用いたLLaVAの試運転方法はこちら

LLM「Vicuna」について

ShareGPTというデータセットでLLaMAをFine-Tuningしたオープンソースの対話型LLM

GPT-4に匹敵する性能を持つ

（2025/04/29追記）

LLaVA派生モデル

v-1.5

CVPR2024

二層のProjection層と活性化関数GELUを使用

多数のベンチマークでSoTAを達成

NEXT（v-1.6）

高解像度の画像にも対応

Ollamaで利用可

UHD

高解像度の画像に対応

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

llava-calm2-siglip

サイバーエージェント製

日本語入出力対応

https://huggingface.co/cyberagent/llava-calm2-siglip

llava-jp-1.3b-v1.1

日本語入出力対応

高解像度の画像に対応

軽量かつ高性能

https://huggingface.co/toshi456/llava-jp-1.3b-v1.1

日本語対応Vision-Language Modelまとめ記事

https://qiita.com/yuji-arakawa/items/1135f6d71acdec157db3

#Yuma_Oe